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计算 机 化 分 类 测验 终止 规则 的 类 别 、 特 点 及 应 用 


ft tt} xu 陈 XT 
(北京 师范 大 学 中 国 基 础 教育 质量 监测 协同 创新 中 心 , 北京 100875) 


摘 要 计算 机 化 分 类 测验 (Computerized Classification Testing，CCT) 能 够 高 效 地 对 被 试 进行 分 类 ， 已 广泛 应 
用 于 合格 性 测验 及 临床 心理 学 中 。 作 为 CCT 的 重要 组 成 部 分 , 终止 规则 决定 测验 何 时 停止 以 及 将 被 试 最 终 划 
分 到 何 种 类 别 ， 因 此 直接 影响 测验 效率 及 分 类 准确 率 。 bas 大 类 终止 规则 ( 似 然 比 规则 、 贝 叶 斯 决策 理论 
规则 及 置信 区 间 规 则 ) 的 核心 思想 分 别 为 构造 假设 检验 、 设 计 损 失 函 数 和 比较 置信 区 间 相 对 位 置 。 同 时 ， 在 不 
同 测验 情境 下 ，CCT 的 终止 规则 发 展 出 不 同 的 具体 形式 。 未 来 研究 可 以 继续 开发 贝 叶 斯 规则 、 考 虑 多 维 多 类 
别 情境 以 及 结合 作答 时 间 和 机 器 学 习 算 法 。 针 对 测验 实际 需求 ， 三 类 终止 规则 在 合格 性 测验 上 均 有 应 用 潜力 ， 
而 临床 问卷 则 倾向 应 用 贝 叶 斯 规则 。 
关键 词 ”计算 机 化 分 类 测验 ,终止 规则 ， 似 然 比 ， 随 机 缩减 ， 贝 叶 斯 决策 理论 
分 类 号 B841 


1 引言 劳 效 应 的 影响 ; 其 次 ，CCT 依托 于 计算 机 施 测 的 
出 于 能 够 改 恋 传统 纸 笔 测 验 中 相对 固化 的 试题 村 点 使 其 人 能 够 为 被 试 呈现 更 加 丰富 的 测验 内 容 和 
形式 .更 深刻 地 体现 < 因 材 施 测 " 和 "高效 施 测 ”计算 题目 形式 (比如 交互 式 测评 )， 并 获取 更 多 元 细致 
机 测验 尤其 是 计算 机 化 自 适 应 测验 (Computerized PI DA He Ne ee 
Adaptive Testing, CAT) 近 年 来 得 到 飞速 发 展 。 对 于 细 测 量 模型 和 算法 的 使 用 成 为 可 能 ， 比 如 融 人 过 
c bond s oe ete 信 计 被 试 能 力 。 — 程 性 或 多 模 态 数据 的 模型 Sie et al., 2015; Zhan et 

Ay Fy | Jy FE 已 省 潮 一 步 满 jl 难 需 求 、 日 DSH 
而 计算 机 化 分 类 测验 (Computerized Classification al ， pue ie ne 
Testing, CCT) 作为 CAT 的 一 个 重要 分 支 。 决策 的 可 靠 性 。 目 前 , CCT 已 经 在 合格 性 测验 ( 比 
则 以 分 类 考生 为 目的 LAGE. COTZE CATH 如 ， 职 业 资 格 考试 ) 以 及 临床 心理 学 或 医学 诊断 
n" EUM RR EE 将 被 试 划 分 到 两 (比如 ， 焦虑、 抑郁 等 精神 疾病 的 自我 报告 问卷 和 
个 (比如 ， 量 和 未 掌握 ) 或 多 个 (比如 , 合格 .良好 健康 与 护理 问卷 ) 中 得 到 广泛 应 用 (Finkelman et al., 
p a a 相 比 于 传统 纸 笔 ENS 2011; Huebner & Fina, 2015; Smits & Finkelman, 

pale! È EM 
2013). 

CCT 的 优势 在 于 : 首先 ，CCT 不 仅 可 以 自 适应 地 es "T M 
呈现 最 适合 被 二 作答 的 题目 ， 还 可 以 在 保持 相同 。 So duit uda 
决策 精度 的 情况 下 大 大 缩短 测验 长 度 (Spray & CAE MAENE, BRR, MAAA 
Reckase, 1996), 进而 降低 测验 成 本 、 减 少 被 试 站 计 方 法 以 及 终止 规则 五 个 核心 部 分 。 但 是 如 前 所 

AP RD RR 述 ,两 者 在 测验 目的 上 并 不 相同 :CAT 的 目的 是 
对 被 试 能 力 进行 准确 佑 计 ( 陈 平 , 2016), Til CCT Z& 
收 稿 日 期 p ANM i 要 对 被 试 的 类 别 进行 准确 划分 。 因 此 , 终止 规则 
* 国家 自然 科学 基金 面 上 项 目 (32071092)、 中 国 基础 教 是 区 分 CCT 与 CAT 的 一 项 主要 特征 ( 任 赫 ， 陈 平 ， 


育 质 量 监测 协同 创新 中 心 基 础 教育 质量 监测 科研 基 
M = 级 二 规则 关注 的 核心 问题 
金 项 目 (2019-01-082-BZK01 和 2019-01-082-BZK02) 2021)。 总 体 而 言 , CCT 终止 规则 关注 的 核心 问题 


资助 。 是 系统 是 否 有 足够 的 把 握 将 被 试 划 分 到 某 个 特定 
通信 作者 : 陈 平 , E-mail: pchen@bnu.edu.cn 的 类 别 , 或 者 说 系统 是 否 可 以 接受 当前 的 决策 结 
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果 ( 比 如 : 继续 测验 、 将 被 试 划分 到 掌握 /未 掌握 类 
别 ) 可 能 产生 的 成 本 (如 : 测验 效率 的 牺牲 、 第 I 
类 或 第 I 类 错误 率 )。 由 此 , 终止 规则 决定 测验 何 
时 停止 以 及 将 被 试 最 终 划 分 到 何 种 类 别 ， 将 直接 
影响 测验 的 效率 和 分 类 准确 率 。 已 有 的 CCT 终止 
规则 包括 定 长 (fixed-lengtb) 的 规则 ( 即 每 名 被 试 作 
答 固 定数 量 的 题目 ) 以 及 变 长 (variable-length) 的 规 
则 ( 即 每 名 被 试 作答 数 量 不 定 的 题目 )。 定 长 的 规则 
比较 简单 ,不 再 获 述 ， 本 文 主要 关注 变 长 的 规则 。 
需要 指出 的 是 ， 尽管 定 长 终止 规则 的 效率 较 低 ， 
但 是 它 可 以 保证 所 有 被 试 作答 相同 长 度 的 测验 ， 
能 够 减少 被 试 对 测验 公平 的 质疑 ， 主 要 应 用 于 高 
利害 测验 中 。 与 之 相对 应 ， 变 长 的 规则 具有 高 效 
的 特点 ， 能 够 大 大 地 缩短 测验 长 度 ， 可 以 广泛 应 
用 于 各 类 低 利 害 测验 中 。 

变 长 CCT 的 实施 过 程 可 以 看 作 一 种 序 贯 抽样 
方案 ， 即 “在 抽样 时 不 规定 总 的 抽样 个 数 ， 而 是 根 
据 已 抽取 的 样本 结果 决定 是 否 继续 抽样 ， 直 至 停 
止 ”。 最 早 的 变 长 终止 规则 是 Ferguson (1969) 根 据 
序 贯 检验 (Wald，1947) 提 出 的 序 贯 似 然 比 方法 
(Sequential Probability Ratio Test, SPRT), SPRT 77 
法 通过 事先 设 定 第 I 和 第 I 类 错误 率 来 控制 不 同 
决策 的 损失 ,并 使 用 二 项 分 布 对 被 试 作答 进行 建 
模 ， 相 当 于 假设 题库 中 所 有 题目 的 正确 作答 概率 


对 应 于 二 分 类 的 CCT 与 多 分 类 的 CCT。 在 测验 维 
度 方面 , 一些 测验 只 需要 考虑 被 试 在 单个 维度 上 的 
潜在 特质 , 但 是 更 多 的 心理 或 教育 测验 往往 需要 同 
时 考察 被 试 在 多 个 维度 上 的 潜在 特质 ( 康 春 花 ， 辛 涛 ， 
2010)， 这 就 分 别 对 应 于 单 维 CCT (Unidimensional 
CCT, UCCT) 与 多 维 CCT (Multidimensional CCT, 
MCCT)。 需 要 说 明 的 是 ， 多 分 类 的 CCT 终止 规则 
在 构造 上 与 二 分 类 的 相 比 有 较 大 差异 ,而 MCCT 
的 终止 规则 通常 可 以 由 UCCT 经 过 较为 直接 的 推 
广 而 得 到 。 
基于 此 ,本文 将 结合 不 同 的 测验 情境 ， 对 似 
然 比 规则 、 贝 叶 斯 规则 以 及 置信 区 间 规 则 分 别 进 
行 详细 述评 ， 然 后 对 各 种 规则 的 优 劣 进行 讨论 分 
析 ， 最 后 对 CCT 终止 规则 的 未 来 研究 方向 及 应 用 
进行 说 明 。 
2 似 然 比 规则 


似 然 比 规 则 的 核心 是 通过 构造 似 然 比 统计 量 
(likelihood ratio statistics) 进 行 假 设 检 验 。 一 般 而 言 ， 
似 然 比 规则 的 构建 主要 包含 4 个 步骤 ( 任 赫 ， 陈 平 ， 
2021): (1) 构 造 被 试 能 力 属于 特定 类 别 的 假设 检验 ; 
CO) 在 任意 两 个 相 邻 的 类 别 之 间 确 定 能 力 阔 值 ; (3) 
在 每 个 阔 值 的 上 下 给 定 一 个 6 邻 域 。 当 被 试 的 能 
力 值 落 在 该 区 间 时 ， 认 为 被 试 能 力 与 阔 值 没有 显 


相同 ， 相 应 地 以 随机 或 固定 顺序 呈现 题目 。 但 是 ， 
Lewis 和 Sheehan (1990) 则 认为 应 该 在 测验 过 程 中 
直接 控制 每 一 步 可 能 造成 的 损失 ,这 就 需要 利用 
贝 叶 斯 理论 进行 决策 。 另 外 , 为 了 使 序 贯 抽样 过 
程 能 够 与 被 试 能 力 相 适应 ，Reckase (1983) 与 
Kingsbury 和 Weiss (1983) 分 别 引入 项 目 反 应 理论 
(Item Response Theory, IRT) 模 型 。 前 者 使 用 IRT 
模型 代替 二 项 分 布 ,进而 发 展 出 允许 自 适应 选 题 
的 SPRT 方 法 (也 即 对 Ferguson 方 法 的 改进 )， 而 后 
者 利用 能 力 估计 的 置信 区 间 进 行 分 类 决策 。 综 上 ， 
前 人 分 别 从 不 同 的 视角 出 发 ， 基 于 不 同 的 统计 学 
理论 建构 出 三 类 终止 规则 ,它们 分 别 是 似 然 比 规 
则 、 贝 叶 斯 决策 理论 规则 (后 文 简 称 贝 叶 斯 规则 ) 
和 置信 区 间 规 则 (Ability Confidence Intervals, ACI). 

此 外 , 在 构造 具体 的 CCT 终止 规则 时 ， 还 需 
要 考虑 不 同 测验 情境 的 特点 ， 主 要 包括 被 试 的 类 
别 数 和 测验 的 维度 数 。 在 被 试 类 别 方面 ,有 时 只 
需要 将 被 试 划分 到 两 个 不 同类 别 ， 而 有 时 则 需要 
将 被 试 划 分 到 三 个 及 以 上 的 不 同类 别 ， 它 们 分 别 


著 差 异 ， 因 此 该 区 间 也 被 称 为 无 差别 区 间 ; (4) 构 
建 似 然 比 统计 量 并 确定 拒绝 域 。 具 体 地 说 ， 根 据 
不 同 的 假设 检验 与 统计 量 ， 似 然 比 规则 可 以 被 划 
分 为 SPRT 和 广义 似 然 比方 法 (Generalized Likelihood 
Ratio, GLR)， 下 面 进 行 详细 介绍 。 
2.1 序 贯 似 然 比方 法 (SPRT) 
2.1.1 二 分 类 的 SPRT 方法 

最 早 的 二 分 类 似 然 比 终止 规则 就 是 Wald 
(1947) 提 出 的 SPRT。 在 此 基础 上 , 研究 者 们 主要 
致力 于 解决 两 个 方面 的 问题 : 一 是 如 何 进一步 提 
升 二 分 类 SPRT 的 决策 效率 ; 二 是 如 何 将 单 维 的 
二 分 类 SPRT 拓展 到 多 维 情境 。 对 于 第 一 个 问题 ， 
Finkelman (2003，2010) 将 随机 缩减 (stochastic 
curtailment) 技 术 与 SPRT 方法 相 结合 ,提出 随机 缩 
减 的 SPRT (Stochastically Curtailed SPRT, 
SCSPRT)， 以 进一步 提高 测验 效率 。 需 要 指出 的 是 ， 
上 述 方法 仅 适用 于 单 维 情境 。 对 于 第 二 个 问题 ， 
即将 已 有 方法 推广 至 MCCT 时 , 规则 的 构建 思路 
基本 没有 变化 , 但 是 能 力 参 数 的 多 维 性 会 导致 
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UCCT 中 的 能 力 分 界 点 转变 为 多 维 空间 中 的 能 
分 界 曲线 或 曲面 ( 任 赫 ， 陈 平 , 2021)。 为 此 , Nydick 
(2013) 从 两 个 不 同 的 角度 解决 这 一 问题 ， 分 别提 
出 约束 的 SPRT (Constrained SPRT, C-SPRT) 以 及 使 
用 空间 投影 方法 构建 的 投影 SPRT (Projected SPRT, 
P-SPRT)。 另 外 , Nydick (2013) 还 在 C-SPRT 的 基 
础 上 结合 随机 缩减 技术 开发 出 随机 缩减 的 多 维 
SPRT (Multidimensional SCSPRT, M-SCSPRT)。 下 
文 依次 介绍 单 维 的 SPRT 与 SCSPRT 以 及 多 维 的 
C-SPRT, P-SPRT 5j M-SCSPRT。 
(1) 单 维 的 SPRT 方法 (SPRT 5 SCSPRT) 
在 UCCT 中 , SPRT 使 用 一 组 简单 假设 来 判断 
被 试 的 能 力 分 类 ， 即 
Hy:0=0=0,-6 
H,:0-0,-0,*0, 
其 中 ，9 是 被 试 的 能 力 值 ，g 为 事先 确定 的 分 界 
分 数 ，5 为 邻 域 大 小 的 一 半 ， 即 无 差别 区 间 宽 度 
的 一 半 ，[0,2,] 就 是 构造 的 无 差别 区 间 。 由 此 ， 
Ho 表示 被 试 恰好 被 划 入 未 掌握 的 一 类 ，HI 表示 
恰好 被 划 入 掌握 的 一 类 。 
由 此 ，SPRT (Wald，1947) 构 造 对 数 似 然 比 统 
计量 如 下 ， 


C,, =log[LR(0,,0 | Y, ,)]=1og MOY, y) 2) 
mE LAI.) | 


a) 


Hh, LOY, p) 为 基于 IRT 的 似 然 函数 ，¥ p= 
(Yi Y5,7 Y) 为 被 试 i 在 题目 j=1,2,…, 六 上 的 作 
答 向 量 。 记 第 工 类 、 第 工 类 错误 率 分 别 为 c 和， 
令 4A=pU-o 、B=(-p)/wc . C,=log(A) 、 
C, =log(B) (Finkelman, 2003)。 被 试 ? 完 成 了 了 道 题 
目 后 ， 计 算 对 数 似 然 比 统计 量 Gj, ， 并 按 如 下 规则 
对 被 试 给 出 判断 : 车 Cy 入 CI， 则 考生 的 分 数 更 有 
可 能 低 于 分 数 线 , 判断 被 试 属于 “未 掌握 *， 并 结 
muss, WEKEN j; 若 Cy SC,, WEE 
的 分 数 更 有 可 能 高 于 分 数 线 , 判断 被 试 属于 “ 掌 
握 *， 并 结束 测验 ， 记 测验 长 度 为 ji 否则 ,要求 


6 6 0 
(SPRT) (SPRT) (GLR) 
Eu I 


3.0-2.5-2.0-1.5-1.0-0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 
图 1 不 同 能 力 取 值 下 的 对 数 似 然 函数 值 示 例 


Wald-Wolfowitz 定理 (Wald & Wolfowitz, 1948) 
表明 : 在 “测验 持续 进行 直至 满足 Cy <C 或 
C, > C, 而 停止 的 情况 下 ，SPRT 是 根据 同样 观 
测 个 数 进行 的 检验 中 具有 最 大 检验 力 的 假设 检验 ， 
即 最 优 序 贯 检验 。 但 是 , 受制 于 现实 情境 下 的 疲 
劳 效 应 、 练 习 效 应 等 因素 的 影响 , 不 可 能 要 求 被 
试 持续 作答 直至 满足 上 述 条 件 ( 任 赫 ， 陈 平 ， 
2021). 因此 在 CCT 的 实际 使 用 中 , 一 般 需 要 事先 
设 定 最 大 测验 长 度 J 。 于 是 ， 研 究 者 在 设计 CCT 
终止 规则 时 一 般 规 定 ， 若 在 被 试 完成 了 道 题 目 时 
测验 仍 未 结束 ， 则 通过 下 述 准则 对 被 试 进行 强制 
分 类 : PC, «OC, WIE pgs, 测验 长 度 为 了， 
并 判断 被 试 属于 “未 掌握 ”; 若 Cy > Co。， 则 停止 测 
验 , 测验 长 度 为 了 ,并 判断 被 试 属于 “掌握 ”。 其中， 
Co=(C+C)/2 o 

将 被 试 最 终结 束 测 验 时 实际 作答 的 题目 数 记 
HK, 对 被 试 的 分 类 判断 结果 记 为 D (其 中 ， 
D=m 表示 被 试 属于 “掌握 ”"，D =n 表示 被 试 属于 
“未 掌握 ”)， 则 SPRT 的 判断 准则 可 以 概括 如 下 ， 

停止 测验 ,K = j'D-n 

Fj! <J, Cy SORU =J, Cy SG} 


停止 测验 ,K = j',D =m (3) 
E'< J, Cy F C, kt =J, Cy > Co}. 
继续 测验 否则 


值得 注意 的 是 ,在 SPRT 中 引入 最 大 测验 长 


被 试 继续 作答 下 一 道 题 。 例 如 , 图 1 展示 了 使 用 
两 参数 逻辑 斯 蒂 克 模型 模拟 数据 得 到 的 “不 同 能 
力 取 值 下 的 对 数 似 然 函 数值 ” 当 分 界 分 数 取 
0.5, 5=01, a=f=0.05 Hf, 得 到 0 =-0.6、 
6,=-04 、G=-2.94 , C,-294 。 此 时 ， 
log(L(@, | Y, ;) ]- -9.68,log[L(O | Y, ,)] - -1241, F 
是 计算 得 到 对 数 似 然 比 统计 量 Cj = (79.68) - 
(71241) 22.73 o HF C< Cy <C, , 所 以 继续 测验 。 


HE 虽然 能 够 解决 一 些 现实 问题 , (A E E 
Wald-Wolfowitz 定 理 的 前 提 假 定 ， 导致 SPRT 不 再 
是 最 优 序 贯 检验 。 在 现实 测验 中 ,这 不 仅 会 增加 
测验 长 度 和 测验 时 间 ， 而且 会 提高 题目 曝光 率 。 
因此 , 在 维持 SPRT 的 分 类 准确 率 基本 不 变 的 基 
础 上 ,尝试 缩 短 测验 长 度 可 以 减轻 上 述 问题 ,有 
助 于 CCT 的 应 用 。 随 机 缩减 技术 (Finkelman, 2008; 
Huebner & Fina，2015) 正 是 一 种 尝试 缩短 测验 长 
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度 的 方法 。 它 的 核心 思想 是 : 如 果 被 试 未 来 的 作 
答 不 太 可 能 会 改变 当前 对 被 试 的 分 类 判断 , 那么 
此 时 便 结束 测验 是 合理 的 。 

SCSPRT 规则 就 是 一 种 将 随机 缩减 技术 与 


O, 并 由 此 计算 公式 (2) 所 构造 的 SPRT 统计 量 
Gj。 但 是 在 MCCT 中 ,事先 确定 的 只 能 是 能 力 分 
界 曲线 或 曲面 ， 导 致 无 法 直接 得 到 某 个 确定 的 阔 
值 % 。 此 外 , 即使 获得 @， 多 维 空间 中 的 @ 在 不 


SPRT 相 结合 的 似 然 比 终止 规则 。 在 完整 保留 公式 
(3) 所 定义 的 判断 准则 的 基础 上 ，SCSPRT 对 原本 
需要 继续 作答 的 被 试 i 进 行 预 分 类 ,并 预测 预 分 
类 结果 能 否 保 持 。 具 体 地 说 ，SCSPRT 首先 按照 
SPRT 方法 计算 等 式 (2) 所 定义 的 对 数 似 然 比 统计 
it Cy ,然后 再 计算 “被 试 完 成 整 份 测验 ， 即 作答 
完 J BUR, 得 到 的 分 类 结果 ”与 当前 的 预 分 类 结 
果 一 致 的 概率 。 使 用 Dj 表示 在 被 试 完成 六 道 题目 
后 对 被 试 的 预 分 类 ; D, 表示 被 试 作 答 的 题目 数 
达到 最 大 测验 长 度 J 时 得 到 的 分 类 结果 。 上 述 概 
率 就 可 以 表示 为 P(Dj =Dilcy)， 同 样 使 用 Co 作 
为 判断 准则 。 于 是 ,对 于 预 分 类 为 “未 掌握 ”的 被 试 ， 
P(D, =D,|Cy) = (D, =n|Cy) 。 

在 公式 (3) 中 , Pj HC <C,<C,, Bid 
继续 进行 作答 。 但 是 , SCSPRT 方法 在 j'«J 时 ,对 
公式 (3) 所 定义 的 判断 准则 进行 如 下 调整 ， 

停止 测验 ,K = j,D=n 若 {Cj SC} ak 

(C; < Cy < Co0,P(D) =n| Cy) 21-4} 
ZIEMI, K = j, D=m HC >C (4) 

{C,>Cy>Co P(D; =m|C;) > 1-6}, 

继续 测验 否则 


其 中 ,临界 值 5 与 6 由 测验 开发 者 事先 给 定 。 以 
往 的 模拟 研究 表明 : 在 保证 一 定 分 类 精度 的 前 提 
下 , 44 5 & MBH 0.05 Bf, SCSPRT 能 大 幅 缩 短 测 
验 长 度 (Finkelman, 2008, 2010), P(D, = n|Cjr) 的 
具体 计算 详 见 Finkelman (2008) 55 f£ $ fI EF 
(2021)。 需 要 指出 的 是 , 在 自 适 应 选 题 的 情境 下 ， 
无 法 提前 确定 接 下 来 选取 的 题目 ， 这 会 给 PLD = 
n|C,.) 的 计算 带 来 一 定 困 难 。 此 时 ， 可 以 选择 一 组 
“合适 ”的 题目 替代 被 试 未 来 实际 作答 的 题目 。 例 
如 ， 若 使 用 最 大 信息 量 选 题 策略 ， 可 以 选择 在 被 
试 “ 当 前 能 力 估计 值 ? 具 有 最 大 信息 量 的 了 -也 道 
题 作为 替代 题目 .有 研究 者 指出 ， 如 果 使 用 替代 题 
， 需 适当 减 小 a 和 6 的 取 值 (Finkelman, 2008). 
(2) 多 维 的 SPRT Jrik(C-SPRT, P-SPRT 与 
M-SCSPRT) 
在 上 述 的 UCCT F, 通过 事先 确定 的 能 力 立 
值 ,可 以 很 容易 获得 公式 (1) 中 所 需要 的 9 与 


di 


同方 向 上 可 以 构造 任意 多 个 5 邻 域 ， 因 此 如 何 选 
择 可 用 于 Cy 计算 的 9 和 以 是 另 一 个 需要 解决 的 
问题 。 

C-SPRT 使 用 “约束 在 分 界 曲线 上 的 能 力 估计 
值 > 作 为 能 力 分 界 点 @, 的 近似 (6,)， 并 在 该 点 处 ， 
沿 分 界 曲 线 的 法 向 量 方向 计算 相应 的 0 和 9, 的 
近似 (0 和 6 )。 具 体 地 说 ,被 试 1 完成 子 道 题目 后 ， 
C-SPRT 算法 首先 在 能 力 分 界 曲线 或 曲面 
(g(80) =0) 上 计算 能 力 参 数 的 极 大 似 然 估 计 值 ， 并 
TERES BIRD, HI 

ô, = arg max| logh(6|¥;;) |, (5) 
begu 


HH, 0,-10:9(00) 2-0 。 然 后 , dE Ó, Rb TR 
g(0) =0 的 法 向 量 方向 构造 6 邻 域 。 记 05 为 该 方 
向 上 的 单位 向 量 ， 可 得 到 无 差别 区 间 的 上 、 下 限 
分 别 为 ,=O +50; 5 0, =0 -50;。 最 后 ,再 按照 
SPRT 构造 似 然 比 统计 量 ( 如 公式 (2))， 就 可 以 得 到 
对 数 似 然 比 统计 量 Cy = logfLR(6,,6,1¥;)] 。 
P-SPRT 5 C-SPRT 唯一 的 区 别 在 于 它 采用 
“空间 投影 ”而 非 “ 似 然 函数 约束 ”的 方法 将 分 界 曲 
线 或 曲面 转换 为 可 用 于 假设 检验 的 分 界 点 。 具 体 
地 说 , P-SPRT 将 基于 极 大 似 然 估计 的 被 试 能 力 估 
计 值 投影 至 能 力 分 界 曲线 或 曲面 g(0)=0 上 , 并 
将 投影 点 视 作 单 维 情境 下 能 力 冰 值 的 近似 ， 即 
Ê, = arg min ||; — 6 |}, (6) 


0c0, 
Hep, 6, 表示 被 试 i 的 能 力 估计 值 ，| .| 表示 欧 
式 空间 的 距离 。 确 定 负 后 , P-SPRT 5j C-SPRT 一 
样 计算 得 到 6 Ô 以 及 Ci ， 并 按照 等 式 (3) 所 定 
义 的 准则 对 被 试 进行 分 类 判断 。 

此 外 ,与 单 维 随机 缩减 方法 类 似 ,同样 可 以 
在 多 维 似 然 比 统计 量 的 基础 上 融入 随机 缩减 技 
术 。M-SCSPRT 就 是 将 多 维 情境 下 的 C-SPRT 5 
随机 缩减 相 结合 的 终止 规则 。 上 有 具体 地 说 ， 与 单 维 
的 SCSPRT 类 似 , M-SCSPRT 使 用 C-SPRT 的 方法 
(等 式 (5)) 获 得 无 差别 区 间 的 上 下 界 ， 据 此 计算 似 
然 比 统计 量 , 并 按照 随机 缩减 技术 计算 
P(D, =Dilcy)， 进 而 根据 公式 (3) 和 (4) 对 被 试 进 
行 分 类 。 
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2.1.2 ”多 分 类 的 SPRT 方法 

多 分 类 情境 是 指 测验 要 将 被 试 划 分 到 三 个 及 
以 上 的 不 同类 别 中 。 在 此 情境 下 ， 如 果 被 试 需要 
被 分 到 S +1 个 不 同 的 类 别 之 中 ， 就 需要 定义 S 个 
能 力 分 界 点 将 不 同 被 试 区 分 开 来 。 目 前 , 在 多 分 
类 情境 下 的 终止 规则 研究 仅 限于 UCCT。 这 些 研 
究 在 二 分 类 方法 的 基础 上 , 使 用 不 同 的 思路 在 多 
个 分 界 点 处 构造 假设 检验 与 检验 统计 量 以 完成 对 
被 试 的 分 类 。 下 面 对 单 维 多 分 类 CCT 中 的 SPRT 
方法 进行 介绍 。 

A ERK S+1 个 类 别 为 例 ,多 分 类 的 SPRT 
规则 根据 所 确定 的 S 个 能 力 分 界 点 , 建立 5S 个 无 
差别 区 间 以 及 与 之 对 应 的 5S 个 二 分 类 SPRT 检验 。 


被 试 属于 类 别 s+1; 否则 ,就 继续 进行 测验 。 如果 
测验 达到 最 大 长 度 本 ， 则 停止 测验 , 测验 长 度 为 
J ,并 根据 被 试 i 的 能 力 极 大 似 然 估计 值 6 和 分 
界 点 的 相对 位 置 对 其 进行 分 类 。 该 方法 最 早 由 
Eggen (1999) 应 用 于 CCT， 后 来 被 Thompson 
(2009) 以 及 van Groen 等 人 (2014) 在 三 分 类 的 情境 
下 进行 过 评估 。 然 而 , Ghosh (1970) 认 为 ， 在 考虑 
更 多 的 类 别 数 时 ，Sobel-Wald 方法 可 能 无 法 得 出 
一 个 明确 的 分 类 判断 。 

(2)Armitage 方法 

为 解决 Sobel-Wald 方法 可 能 无 法 得 出 结论 的 
缺陷 , Armitage (1950) 提 出 一 种 比较 所 有 可 能 的 类 
别 组 合 的 SPRT 方法 。 具 体 地 说 ， 对 于 S 个 能 力 分 


为 便于 理解 , 图 2 展示 的 是 一 个 三 分 类 问题 的 示 
BA IEP, Ou 和 49 分别 表示 能 力 分 界 点 0, 的 无 
差别 区 间 的 上 、 下 界 ，6%, I Ay 分 别 表示 0 的 无 
差别 区 间 的 上 、 下 界 。 


被 试 类 别 
类 别 1 类 别 2 类 别 3 


Ou 0, Ou Ou Or €, 8 
图 2 一 个 三 分 类 问题 的 示意 图 


(1)Sobel-Wald 方法 

Sobel 和 Wald (1949) 所 提出 的 多 分 类 SPRT 
方法 在 每 个 能 力 分 界 点 9, 处 , 构建 一 组 简单 假设 ， 
即 


Hy :9<0, =0,-6 

H,:02 0, =0, +6, 
Hp, Ou 和 0, 分别 表示 能 力 分 界 点 0, 所 对 应 无 
差别 区 间 的 上 、 下 界 。 基 于 公式 (7) 的 假设 检验 ， 可 
以 按照 2.1.1 中 的 SPRT 构造 似 然 比 统计 量 ， 


L(0,,|Y;.) 
Cii = log > (8) 
L(0,|Y;) 


(7) 


由 此 ， 即 可 在 每 个 0, 处 完成 一 组 二 分 类 的 
SPRT 检验 。Sobel-Wald 方法 按照 如 下 准则 对 被 试 
进行 分 类 判断 :结合 所 有 的 S 组 检验 ， 如 果 Hi 被 
接受 ,就 停止 测验 , 测验 长 度 为 六 ,判断 被 试 属 
于 能 力 最 低 的 类 别 ， 即 类 别 1; 如 果 五 ,| 被 接受 ， 
也 停止 测验 , 测验 长 度 为 六 ,判断 被 试 属于 能 

最 高 的 类 别 ， 即 类 别 S +1; WR Ay Al Hono 
同时 接受 ， 同 样 停止 测验 ,测验 长 度 为 上， 判断 


界 点 ， 就 需要 构造 SCS +1) /2 组 假设 检验 (Armitage， 
1950; Seitz & Frey, 2013; Spray, 1993)。 此 时 , 任 一 
组 假设 检验 的 原 假设 互 , 与 备 择 假设 H, 分 别 表示 
考生 属于 类 别 p 和 ( p < qe{2,…,S+]}), Bll 


H,:0<0, =0,-5 m 
Hy:0 9 1 =a tÂ. 
对 应 的 检验 统计 量 为 ， 
L(0, = mp AD) 
Goles 一 -Do | (10) 
LO, Yi) 


Armitage 方法 的 分 类 准则 为 : 如 果 所 有 包括 
假设 瑟 , 的 检验 都 接受 假设 互 ,， 则 停止 测验 ， 测 
验 长 度 为 产 , 判断 被 试 属于 类 别 p; 否则 ,测试 
将 继续 进行 ,直到 满足 上 述 条 件 或 达到 最 大 测试 
长 度 为 止 。 

需要 说 明 的 是 ， 只 有 当 Sobel-Wald 方法 无 法 
给 出 准确 的 分 类 判断 时 ， 其 与 Armitage 的 方法 才 
存在 差异 (Wang et al., 2021)。 而 在 大 多 数 情况 下 ， 
这 两 种 方法 所 得 到 的 结果 都 一 致 ， 但 是 Armitage 
方法 需要 进行 更 多 次 检验 。Wang 等 人 (2021) 的 研 
究 中 使 用 一 个 四 分 类 问题 为 例 ， 对 其 进行 理论 分 
pr, 感 兴趣 的 读者 可 以 参阅 。 也 就 是 说 ，Sobel 和 
Wald 方法 在 测验 的 分 类 准确 率 上 应 与 Armitage 
方法 相近 ,但 在 测验 效率 上 应 更 胜 一 筹 ， 这 与 已 
有 研究 的 结果 一 致 (Govindarajulu，1987; Ghosh & 
Sen, 1991)。 

2.0 广义 似 然 比方 法 (GLR) 

在 SPRT F, 最 大 测验 长 度 的 使 用 可 能 会 降 
低 分 类 准确 率 。 为 此 , Bartroff 等 人 (2008) 将 GLR 应 
用 于 UCCT。 Zia, 研究 者 又 将 随机 缩减 技术 与 GLR 
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相 结合 ， 提 出 随机 缩减 的 GLR 方法 (Stochastically 
Curtailed GLR, SCGLR; Huebner & Fina, 2015). 5j 
外 , Nydick (2013) 也 将 GLR 方法 推广 到 多 维 情境 
中 , 提出 多 维 的 广义 似 然 比方 法 (Multidimensional 
GLR, M-GLR). 
2.2.1 二 分 类 的 GLR 方法 

() 单 维 的 GLR 方法 (GLR 与 SCGLR) 

不 同 于 SPRT 方法 使 用 一 组 简单 假设 ( 即 公式 
A), GLR 使 用 下 述 的 一 组 复合 假设 对 被 试 进行 分 
类 判断 ， 


H$y:0x 6 
H,:026,. 
由 此 , GLR 统计 量 Cy 是 在 “无 差别 区 间 ” 两 侧 
各 自 的 对 数 似 然 函数 最 大 值 之 比 ， 即 
sup [LIZD] 
多 T (12) 


(Q1) 


例如 , 在 图 1 中 , 相 比 于 SPRT 使 用 在 0, 处 的 
对 数 似 然 函 数值 ( -9.68 ), GLR 使 用 在 8, 右 侧 的 似 
然 函数 最 大 值 ( 即 6 处 的 —6.60 )， 此 时 在 9 左 侧 的 
似 然 函数 最 大 值 与 SPRT 时 一 致 ， 于 是 计算 得 到 
Cy =5.81 。 在 得 到 广义 似 然 比 统计 量 Cy 后 , GLR 
规则 也 按照 公式 (3) 所 定义 的 准则 对 被 试 进行 分 类 
判断 。 

此 外 ,也 可 以 将 随机 缩减 技术 与 GLR 相 结合 ， 
得 到 随机 缩减 的 GLR 方法 。 与 SCSPRT 类 似 ， 
SCGLR 是 在 GLR 的 基础 上 结合 随机 缩减 技术 而 
得 到 的 。 具 体 而 言 ， 它 使 用 与 GLR 方法 相同 的 统 
计量 Cy (如 等 式 (12) 所 示 ), 然后 根据 随机 缩减 技 
术 的 要 求 计算 P(D, = Dilcy) ， 最 后 根据 公式 (3) 
和 (4) 对 被 试 做 出 分 类 判断 。 

(2) 多 维 的 GLR 方法 

等 式 (12) 所 示 的 GLR 统计 量 Cy 是 在 “无 差别 
区 间 ” 两 侧 各 自 的 对 数 似 然 函数 最 大 值 之 比 , 不 
再 需要 等 式 (2) 中 的 6, 和 9 。 因 此 , 在 将 GLR 推广 
到 MCCT 时 , 不 再 需要 考虑 如 何 进行 “分 界 曲 线 
或 曲面 ?和 分 界 点 的 转换 的 问题 。M-GLR 统计 量 
的 定义 为 


sup [ LO, Y;) | 
C, = log 5S =; (13) 
i sup | LO, Yi) 
0,0, » 


Hh, On 表示 多 维 空间 中 属于 掌握 类 别 的 被 试 
能 力 范围 ，@, 表示 多 维 空间 中 属于 未 掌握 类 别 


的 被 试 能 力 范 围 。 因 此 ， 上 式 可 以 理解 为 对 数 似 
然 函 数 在 能 力 分 界 曲 线 或 曲面 两 侧 的 最 大 值 之 
比 。 与 等 式 (12) 所 定义 的 单 维 GLR 统计 量 相 比 ， 
等 式 (13) 与 其 形式 一 致 ， 仅 将 似 然 函数 求 极 大 值 
的 区 域 由 两 个 单 维 的 区 间 扩 展 到 两 个 多 维 的 空 
间 。 因 此 ,通过 广义 似 然 比 的 方式 得 到 Cy 后 ， 
M-GLR 规则 与 GLR 一 样 ， 也 是 按照 等 式 (3) 的 准 
则 对 被 试 进行 分 类 。 
2.2.2 ”多 分 类 的 GLR 方法 
回 到 2.1.2 中 S+1 个 分 类 的 问题 , 针对 所 定 
义 的 5S 个 无 差别 区 间 , 将 由 它们 隔 开 的 S+1 个 不 
同类 别 的 被 试 能 力 区 间 分 别 记 为 9, 8 (001). 
O, = {oy SOS Oa} Os = (02 0,) . TERR 
Wang 等 人 (2021) 提 出 的 多 分 类 的 GLR 方法 
(multi-category GLR, mGLR), 得 到 如 下 的 复合 假设 
H.:0eQ,.. (14) 

由 此 ，Wang 等 人 (2021) 指 出 可 以 根据 序 贯 分 
析 中 的 多 假设 GLR 检验 (Tartakovsky et al., 2014), 
为 上 述 复 合 假 设 构造 如 下 的 多 分 类 GLR 统计 量 

j ^ 

[rêi 
7 
2m [I ae) 
其 中 ,分 子 部 分 表示 似 然 函 数 的 极 大 值 ， 分母 部 
分 表示 在 能 力 区 间 ©, 内 似 然 函 数 的 极 大 值 。 基 于 
此 , mGLR 方法 定义 如 下 的 分 类 准则 : 

(1) 当 6 不 属于 任何 一 个 无 差别 区 间 时 ， 如 果 
存在 s ,对 所 有 tzs， AC, Zag, MEEMI, 
测验 长 度 为 六 ,判断 被 试 属于 类 别 s 。 这 是 因为 
当 五 ,为 真 时 , 在 9, 内 的 似 然 函 数值 会 大 于 在 其 
他 无 差别 区 域内 的 似 然 函数 值 ， 从 而 使 得 Ci 的 
值 较 小 而 其 他 的 Cy 的 值 较 大 。 其 中 ，as 是 一 个 
事先 给 定 的 值 ， 表示 在 瑟 , 为 真 时 接受 H, 的 概率 。 

DTU, WR Â AM 0, 所 定义 的 无 差别 
区 间 ， 则 如 等 式 (8) 一 样 计算 Cw 以 决定 将 被 试 划 
分 到 类 别 s 或 s+1 或 继续 测验 。 

2.3” 似 然 比 规则 简 评 

似 然 比 检验 的 核心 思想 是 比较 有 约束 条 件 的 
似 然 函数 的 最 大 值 与 无 约束 条 件 的 似 然 函 数 的 最 
大 值 。 如 果 两 者 之 间 的 差异 不 大 ,就 可 以 认为 对 
参数 的 约束 有 效 ; RZ, 则 认为 对 参数 的 约束 无 
效 。 基 于 此 ， 似 然 比 规则 在 不 同类 别 下 ， 建 立 符合 
该 类 别 约束 的 似 然 函 数 ， 并 比较 不 同类 别 约 束 条 


Cy = log ， 5) 
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件 的 似 然 函数 的 最 大 值 。 如 果 某 个 类 别 的 似 然 函 
数 显 著 大 于 其 他 类 别 ， 就 可 以 认为 将 考生 划分 到 
该 类 别 是 可 信 的 ,反之 继续 测验 。 由 于 似 然 比 检 
验 发 展 较为 完备 且 具 有 良好 的 理论 性 质 和 检验 效 
果 ,， 因 此 基于 似 然 比 检验 的 似 然 比 规则 是 目前 研 
究 最 为 集中 的 一 类 CCT 终止 规则 。 已 有 研究 也 表 
明 似 然 比 规则 还 具有 较 好 的 稳健 性 ， 比 如 Huang 
等 人 (2000) 认 为 即使 题目 参数 没有 得 到 准确 标定 ， 
SPRT 方法 也 能 获得 较为 准确 的 分 类 结果 。 但 是 ， 
似 然 比 规则 也 有 一 定 的 缺点 , 例如 : (1) 5 的 取 值 
在 很 大 程度 上 影响 着 SPRT 方法 的 准确 性 与 效率 。 
尽管 5 越 大 能 使 测验 越 快 结束 , 但 是 大 的 6 会 影 
向 决策 的 精度 。 特 别 是 对 于 多 分 类 情境 ， 如果 5 
过 分 大 的 话 , 不 同 的 无 差别 区 域 很 容易 会 出 现 重 
个 ， 从 而 使 得 我 们 很 难 去 解释 决策 的 结果 。 所 以 ， 
6 的 取 值 范围 是 研究 者 需要 注意 的 一 个 方面 ; (2) 
似 然 比 规则 在 复杂 测验 情境 (比如 ， 多 维和 多 分 类 ) 
下 的 拓展 比较 复杂 ; (3) 分 界 分 数 的 选取 具有 较 大 
的 主观 性 。 


3 贝 叶 斯 决策 理论 规则 


贝 叶 斯 规则 是 另 一 类 重要 的 CCT 终止 规则 。 
不 同 于 列 含 假设 检验 的 规则 ， 贝 叶 斯 规则 以 贝 叶 
斯 决策 理论 为 基础 ， 通 过 定义 后 验 概 率 与 损失 函 
数 ， 就 可 以 选择 期 望 损失 最 小 的 决策 以 完成 对 被 
试 的 分 类 判断 。 其 中 , 损失 由 错误 决策 所 产生 , B. 
体 可 分 为 靖 值 损失 和 线性 损失 。 目 前 为 止 ， 研 究 
者 对 贝 叶 斯 规则 的 研究 基本 仍 限于 UCCT 情境 。 
3.1 阅 值 损失 

(D 二 分 类 的 阔 值 损失 规则 

Lewis 和 Sheehan (1990) 在 二 分 类 情境 下 提出 
一 种 阔 值 损失 函数 ， 也 即 用 不 同 的 常数 来 评估 决 
策 所 有 可 能 结果 的 损失 。 表 1 展示 的 是 Lewis 和 
Sheehan (1990) 的 研究 中 ， 作 答 7 道 题目 后 的 阅 值 
损失 。 


表 1 阶段 站 时 的 二 分 类 阅 值 损失 函数 


决策 0-60 0-80, 
被 试 属于 “未 掌握 ” JT, ly t jl. 
被 试 属于 “掌握 ” m * j'l, J, 


FU, 1, 表示 被 试 作答 一 道 题目 的 损失 ， 以 
此 控制 测验 效率 (一 般 要 求 作答 每 道 题目 的 损失 


是 一 样 的 );， ho 为 “将 一 位 未 掌握 的 考生 划分 到 掌 
握 类 别 ” 的 损失 ，jo 为 “将 一 位 掌握 的 考生 划分 到 
未 掌握 类 别 ” 的 损失 ， 以 此 控制 测验 精度 。 为 简便 
EL, Lewis 和 Sheehan (1990) 将 各 个 测验 阶段 和 
各 个 决策 的 损失 值 都 设置 为 相同 。 需 要 指出 的 是 ， 
正确 分 类 所 对 应 的 损失 b 5 LL 并 未 在 表 1 PE 
现 。 这 是 因为 ， 这 里 假定 正确 分 类 的 损失 相同 并 
且 损失 值 非常 小 。 表 1 所 展示 的 损失 函数 是 重新 
量 尺 化 后 的 结果 ，10 与 4 在 量 尺 转换 后 变 为 0。 
此 外 , 表 1 中 并 没有 呈现 “继续 作答 一 道 题目 ”的 
损失 , 这 是 因为 继续 作答 的 损失 可 以 表示 为 与 讽 
验 未 来 阶段 中 的 分 类 决策 ( 即 掌 握 / 未 掌握 ) 相 关 的 
损失 的 加 权 平 均 ， 权重 等 于 得 到 相应 决策 的 概率 。 
根据 贝 叶 斯 理论 ， 被 试 i 在 作答 7 道 题 后 属 
于 掌握 类 别 的 后 验 概率 Pr 可 以 如 下 式 一 般 进 行 
迭代 计算 ， 
Pay = P(0-0Y, 1)= 
PY, 18.) Pay 
PUY, MNO) Ppt PO, 14) By, 09 
其 中 ， 当 六 =1 时 ，Pyi 为 被 试 为 掌握 类 别 的 先 
验 概率 PB, o H, Pyr =l- Py。 在 被 试 作乱 题 
目 数量 为 六 时 ,被 试 i 被 划分 为 掌握 类 别 的 期 望 
损失 (也 称 为 风险 函数 ) 为 ， 
Eg[1(0,m) | Y, .] 9 jl, tho A-Pyj), AD 
Hep, 0069 为 损失 函数 。 被 试 ;此 时 被 划分 为 未 掌 
握 类 别 的 期 望 损失 为 ， 
i9 [I(8,n) | Y, /] 9 j'le + loi Pap. (18) 
此 外 , 被 试 i 还 可 能 被 要 求 继续 测验 。 而 计算 
此 时 继续 测验 的 期 望 损失 就 需要 考虑 在 j'+1 时 
的 所 有 可 能 决策 的 损失 。 为 此 ,首先 计算 被 试 在 
第 六 +1 道 题目 上 的 作答 为 r 的 概率 , 记 为 Biyo 
可 以 将 PB; 表示 为 By 的 函数 ， 即 ， 
Pay = P(Y; ja = r|Y, y) 


"j 
PO, ja =O) Pay + POY, ja =O) Py, (109) 


n| j" 
其 中 ，P(Y pa =r) 和 PG yi=7|0,) 分 别 是 “未 
掌握 ”与 “掌握 ”的 被 试 在 第 j+1 题 上 作答 为 r 的 
概率 在 整个 题库 水 平 上 的 平均 值 。 

在 贝 叶 斯 规则 中 , 使 用 最 小 化 风险 函数 的 方 
式 给 出 决策 。 具 体 地 说 , 在 最 大 测验 长 度 ( 即 j = J) 
时 ， 由 于 必须 对 被 试 做 出 判断 而 不 能 继续 要 求 被 
试 作答 ,因此 可 以 直接 根据 公式 (17) 和 (18) 给 出 此 
时 的 风险 函数 ， 并 取 使 得 风险 函数 最 小 的 分 类 判 
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断 作 为 决策 。 该 决策 可 以 表示 为 Pu 的 函数 ， 即 
d, (Prz) = min{E,[1(0,m) | Y], Eo [I(6.) | Y; |] . (20) 

在 j« J 时 ， 还 需要 考虑 继续 作答 的 损失 。 此 
时 ,根据 上 式 就 可 以 依次 迭代 ,得 到 测验 在 达到 
最 大 长 度 之 前 继续 作答 的 期 望 损失 。 比如， 如 图 3 
所 示 ， 对 于 二 级 计 分 的 题目 , 在 j = 了 -1 时 , 被 试 
分 别 以 马 j_1 和 Bj 的 概率 答 错 或 答对 下 一 题 (第 
J 题 )。 被 试 作答 第 题 后 ,由 于 达到 最 大 测验 长 
度 ， 只 需要 做 出 分 类 决策 而 不 需要 继续 作答 ， 所 
以 此 时 的 风险 函数 就 如 同等 式 (20)。 


下 一 题 答对 下 一 题 答 错 


Piy j dy (Pris) Port t d; (Pr) 


图 3 在 第 了 -1 题 时 要 求 被 试 继续 作 答 的 损失 (以 二 级 
计 分 题 为 例 ) 


于 是 , 在 j=J-1 时 要 求 被 试 继续 作答 的 期 


(2) 多 分 类 的 阔 值 损失 规则 

对 于 贝 叶 斯 规则 而 言 ， 从 二 分 类 到 多 分 类 的 推 
广 比较 简单 .对 于 一 个 三 分 类 的 UCCT， 只 需要 将 表 
1 中 的 阔 值 损失 函数 蔡 换 为 表 2 中 内 容 ， 再 选择 最 小 
的 损失 即 可 完成 对 被 试 的 分 类 判断 (Vos, 1999)。 


表 2 阶段 站 的 三 分 类 阅 值 损失 函数 


决策 0-0, 0,<0<0, OZO 
被 试 属于 “类 别 1" J, it+ ee j'h 
BURR FRG 2” Ly + jl. Jl. b + jl. 
被 试 属于 “类 别 3” tjk In jl. jl. 


表 1 FR RY BOE TRU eR CLE — A 91 S RS k 
点 : 它 假定 对 于 不 同 能 力 值 的 被 试 的 损失 是 恒定 
的 ， 而 不 考虑 这 些 被 试 能 力 值 与 分 界 分 数 的 距 
离 。 但 事实 上 ， 能 力 值 离 分 界 分 数 更 远 的 被 试 被 
错误 分 类 所 造成 的 损失 往往 更 严重 。 此 外 ， 阔 值 
损失 函数 的 值 也 不 是 连续 变化 的 ， 这 在 很 多 情况 
下 也 不 符合 现实 。 因 此 , 一 种 更 合理 的 假设 是 : 
损失 函数 是 关于 能 力 与 分 界 分 数 间距 离 的 连续 增 


望 损 失 就 可 以 用 预期 被 试 作答 到 第 了 题 时 的 风险 
函数 表示 ， 即 


1 
Ey [I(6,c) | Fz | = 2- Bia i d; (Pas) = 


r=0 
Py dj (Py ) + Ba d (Pas, ) Q1) 
其 中 , c 表示 对 考生 的 判断 为 需要 继续 做 答 ，P,j 
和 Pj 分 别 表示 被 试 在 第 了 道 题 上 作答 为 0 或 1 
时 被 判断 为 掌握 类 别 的 后 验 概率 ， 其 计算 按 公式 
(19) 进 行 。 由 此 , 在 j= 了 -1 时 的 决策 可 记 为 ， 
d, (P3) -min[E, [I(0,m)|Y, , b 
Ej 6,n)]Y, ,., | Ej [6.01 Y, ,..]) (22) 
根据 上 式 就 可 以 对 被 试 进行 分 类 判断 。 具 体 
地 说 ,系统 将 选择 使 得 期 望 损失 最 小 的 决定 (将 被 
试 划分 为 掌握 ,未 掌握 或 要 求 继续 作答 )， 即 


停止 测验 ,K = j',D=m dE, [1(06,m)|Y,, , | 最 小 
停止 测验 ,K = j',D=n EEQI(6.0)|Y,,, | (23) 


继续 测验 d, [1 (0, c)| Y, ya | 最 小 

以 此 类 推 就 可 以 得 到 在 j = 了 时 被 试 继续 
作答 的 期 望 损失 ,并 选择 使 得 期 望 损失 最 小 的 决 
定 完 成 对 被 试 的 判断 。 


函数 (van der Linden & Mellenbergh, 1977; van der 
Linden & Vos, 1996; Vos, 1997a, 1997b)。 

(1) 二 分 类 的 线性 损失 规则 

Van der Linden 和 Mellenbergh (1977) 在 二 分 
类 情境 下 ,提出 一 种 线性 损失 函数 ， 如 表 3 所 示 。 
可 以 发 现 , 相 比 于 阔 值 损失 , 线性 损失 使 得 决策 
成 本 可 以 随 “ 能 力 值 0 离 分 界 分 数 O 的 距离 ”的 变 
化 而 线性 变化 。 


RI 阶段 六 的 二 分 类 线性 损失 函数 


决策 0=0 0-6, 
被 试 属于 “未 掌握 ” ji. b (0, -8) + J 
we TR”, (4)- 0) + jl, jt. 


其 中 , 斜率 b 5 b, 是 由 有 经 验 的 专家 确定 。 
在 给 定 损失 函数 后 ， 就 可 以 按照 后 验 概率 得 到 损 
失 最 小 的 决策 ， 从 而 完成 对 被 试 的 分 类 。 

(2) 多 分 类 的 线性 损失 规则 

与 阅 值 损失 函数 类 似 , 在 多 分 类 情境 下 ， 只 
需要 将 表 3 中 的 线性 损失 函数 替换 成 表 4 中 的 内 
容 即 可 得 到 一 种 三 分 类 的 线性 损失 函数 (Vos， 
1999), 
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表 4 阶段 六 的 三 分 类 线性 损失 函数 


决策 0x0, 0,«0«0, 020, 
被 试 属于 “类 别 1” J, b (0-4) + jl. b (8-8) j'l. 
被 试 属于 “类 别 2" b,(|9-@ |-6') + j'l, i b,(|9-@ |-0')+ jl, 
被 试 属于 “类 别 3” b,(0, -0)+ j'l, b, (8, -0)+ jl. Jl. 


其 中 , 0° =(6@ +0)/2,0 2(0,-8)/2 。 
3.3” 贝 叶 斯 规则 简 评 

贝 叶 斯 规则 所 提供 的 思路 与 似 然 比 规则 的 完 
全 不 同 。 似 然 比 规则 是 通过 构造 似 然 比 统计 量 进 
行 假设 检验 ， 贝 叶 斯 方法 则 是 通过 作答 更 新 被 试 
能 力 的 后 验 分 布 ,并 使 用 后 验 概率 计算 损失 函数 
值 ， 从 而 基于 贝 叶 斯 决策 论 完成 对 被 试 的 判断 。 

需要 指出 的 是 , 在 贝 叶 斯 规则 中 ， 有 无 数 种 
可 能 的 损失 函数 ,没有 哪 一 种 损失 函数 一 定 是 最 
好 的 。 这 一 特点 既是 贝 叶 斯 规则 最 大 的 优点 ,也 
是 其 饱 受 诉 病 的 一 点 。 支 持 者 认为 这 使 得 该 方法 
能 够 考虑 多 样 的 损失 函数 ， 具 有 更 大 的 灵活 性 ; 
但 是 , 反对 者 认为 损失 函数 的 选择 具有 一 定 程度 
的 任意 性 。 在 使 用 该 方法 之 前 , 研究 者 需要 考虑 
清楚 如 何 客观 、 科 学 地 选择 需要 的 损失 函数 。 


4 置信 区 间 规 则 


除 似 然 比 规则 和 贝 叶 斯 规则 外 ,CCT 终止 规 
则 中 还 有 一 种 是 ACI 方法 。ACI 方法 通过 比较 分 
界 分 数 与 “被 试 能 力 估 计 值 的 置信 区 间 ” 的 相对 位 
置 , 来 完成 对 被 试 的 分 类 判断 。 
4.1 置信 区 间 规 则 介绍 

目前 ， 对 于 这 种 方法 的 研究 较 少 且 集 中 在 二 
分 类 的 UCCT 中 。 值 得 注意 的 是 ,ACI 中 所 涉及 到 
的 被 试 能 力 估 计 ， 既 可 以 使 用 极 大 似 然 估 计 也 可 
以 使 用 贝 叶 斯 估计 。 具 体 而 言 ， 如 果 使 用 极 大 似 
然 估 计 ， 则 通过 测量 标准 误 (Standard Error of 
Measurement, SEM) 构 造 置 信 区 间 ; 如 果 使 用 贝 叶 
斯 估计 ， 则 使 用 贝 叶 斯 后 验方 差 的 平方 根 构造 置 
信 区 间 。 分 类 测验 过 程 中 ,不断 更 新 的 被 试 i 的 能 
力 估计 值 的 置信 区 间 可 以 表示 为 ， 

Ô — 2. x Sno <O<O, 42, xó,,. (94) 

其 中 ，z, 为 (1-<) 的 置信 区 间 所 对 应 的 标准 正 态 
分 布 分 位 数 ，c =a+B 为 两 类 错误 率 之 和 ，6,o, 
表示 对 能 力 的 极 大 似 然 估计 中 的 SEM 或 贝 叶 斯 
估计 中 后 验方 差 的 平方 根 。 例 如 ， 如 果 设 置 第 I 
类 、 第 工 类 错误 率 均 为 0.025, BA cH 0.05, 这 


Hz, 等 于 1.96。 在 极 大 似 然 佑 计 中 ,SEM 根据 被 
斌 i 的 所 有 已 作答 题目 的 Fisher 信息 量 计算 ， 即 
— Q5) 
JE; 
其 中 ， 万 表示 题目 j 为 被 试 i 提 供 的 Fisher 信息 
量 ， 对 了 了 道 题目 的 信息 量 求 和 即 得 到 该 被 试 在 已 
作答 的 了 道 题目 上 的 总 信息 量 。Thompson (2011) 
的 研究 指出 ， 有 两 种 方式 可 以 实现 等 式 (25) 的 计 
算 : 一 是 理论 最 大 值 的 SEM; 二 是 观察 分 数 的 
SEM. 根据 被 试 已 作答 题目 所 组 成 的 测验 ,理论 
最 大 值 的 SEM 是 在 被 试 能 力 所 有 可 能 取 值 的 范 
围 内 每 隔 一 定 步 长 (比如 , 在 [-3,3] 的 区 间 内 每 隔 
0.01) 计 算 一 个 SEM， 并 取 其 最 大 值 ; 观察 分 数 的 
SEM 则 是 在 被 试 的 能 力 估 计 值 处 , 计算 SEM. ffi 
小 珠 和 陈 平 (2020) 指 出 ,在 大 多 数 研究 中 都 使 用 
观察 分 数 的 SEM 进行 计算 。 

得 到 置信 区 间 [6 -z xSEM,O +z, x SEM] 后 ， 
ACI 方法 的 分 类 准则 如 下 : 如 果 分 界 分 数 低 于 该 
区 间 的 下 界 ( 即 Â -z x SEM ), 那么 停止 测验 , 测 
验 长 度 为 六， 并 判断 被 试 属于 “掌握 *， 如 果 分 界 
分 数 高 于 该 区 间 的 上 界 ( 即 Â +z x SEM ), 那么 
停止 测验 ,测验 长 度 为 了 ,并 判断 被 试 属于 “未 掌 
4g"; 否则 就 继续 进行 测验 。 

4.0. 置信 区 间 规 则 简 评 

在 某 种 程度 上 ， 可 以 认为 ACI 方法 将 被 试 的 
分 类 问题 转化 为 被 试 的 能 力 估 计 问 题 。 这 样 做 的 
好 处 是 使 得 对 被 试 的 分 类 变 得 非常 直观 、 简 洁 。 
但 是 ， 这 种 方法 的 稳健 性 相对 较 差 。 因 为 使 用 该 
方法 需要 有 足够 大 的 标定 题库 作为 前 提 ， 和 否则 就 
可 能 会 导致 较 高 的 错误 率 。 同 时 , Eggen 和 Straetmans 
(2000) 以 及 Thompson (2009) 的 研究 都 表明 : 该 方 
法 所 需 的 测验 长 度 一 般 高 于 似 然 比 规则 。 


5 三 类 终止 规则 的 综合 分 析 


51 三 类 终止 规则 的 构造 思路 与 优 缺 点 分 析 
综 上 所 述 , 三 类 终止 规则 各 有 优 缺 点 。 其 中 ， 
似 然 比 规则 基于 似 然 比 检验 ， 具 有 较 好 的 理论 性 


SEM = 


第 5 期 


(^ 


Nf 
-N A 
= | 


KHa iip 
NINAA IVE 


[t dk 等 : 计算 机 化 分 类 测验 终止 规则 的 类 别 、 特 点 及 应 用 1177 


质 ， 大 多 数 测验 情境 下 最 为 准确 、 高 效 ， 相 关 研 究 
出 较 多 。 但 是 ， 由 于 需要 定义 无 差别 区 间 大 小 和 
第 I、 第 工 类 错误 率 , 引入 了 主观 因素 的 影响 ,并 
且 该 方法 在 多 维 、 多 分 类 等 复杂 测验 情境 下 的 拓 
展 难 度 较 大 。 已 有 的 多 分 类 SPRT 终止 规则 
(Sobel-Wald 方法 与 Armitage 方法 ) 是 对 多 个 能 力 
分 界 点 独立 进行 假设 检验 ， 因此 会 隐 仿 多重 比较 
的 问题 ， 即 实际 的 第 I 和 第 工 类 错误 率 远大 于 设 
定 标准 。 尽 管 已 有 研究 者 留意 到 这 一 点 (Wang， 
2019; Wang et aL, 2021), 但 由 于 第 I 和 第 II 2858 
误 率 的 变化 并 不 是 影响 SPRT 规则 的 分 类 准确 性 
的 主要 因素 ， 所 以 较 少 有 研究 对 其 进行 校正 。 

贝 叶 斯 规则 通过 后 验 概率 与 损失 函数 ， 完 成 
对 被 试 的 分 类 判断 。 该 方法 无 需 事先 给 定 第 I 和 
第 开 类 错误 率 , 它 以 更 全 局 的 角度 动态 优化 决策 ， 
从 测验 最 后 的 阶段 向 前 倒 推 ， 因 此 每 一 步 的 损失 
判断 都 能 考虑 到 整个 测验 过 程 。 损 失 函 数 的 多 样 
性 使 得 该 方法 的 形式 非常 灵活 ,也 使 得 该 方法 很 
容易 就 可 以 被 应 用 于 不 同 的 测验 情境 中 。 但 是 ， 
该 方法 也 存在 一 定 问 题 ，(1) 当 结合 IRT 模型 时 
从 后 向 前 的 损失 函数 计算 量 会 变 得 十 分 巨大 ,不 


利于 该 方法 的 实施 ; (2) 正 如 公式 (19) 所 示 , 已 有 的 
贝 叶 斯 方法 在 计算 “下 一 道 题 得 到 特定 作答 的 概 
率 ， 即 P(Y, ja 2 r|8)) BE PY, pu = 71 8,) "时 使 用 的 
是 在 题库 所 有 题目 上 的 概率 的 平均 值 ( 即 认为 每 
道 题目 在 下 一 阶段 具有 同等 地 位 )， 这 显然 不 符合 
自 适 应 的 特性 ; (3) 损 失 函 数 形式 的 灵活 会 不 可 避 
免 地 导致 使 用 者 在 损失 函数 的 选择 上 产生 疑问 ， 
也 可 能 会 在 实际 应 用 中 产生 由 于 损失 函数 选取 不 
恰当 而 导致 的 误差 。 

ACI 方法 直接 将 分 界 分 数 与 能 力 佑 计 值 的 置 
信和 区间 进行 比较 , 无 需 划 定 无 差别 区 间 , 并 且 计 
算 简 单 且 计 算 量 小 , 是 三 种 方法 中 最 直接 的 一 类 
方法 。 但 是 ， 这 种 方法 的 稳健 性 较 差 ,测验 效率 也 
相对 较 低 。 表 5 是 对 上 述 各 种 方法 的 总 结 。 

5.2 三 类 终止 规则 的 适用 情境 

需要 指出 的 是 ，CCT 是 一 个 非常 复杂 的 测验 
系统 ,终止 规则 的 优 劣 还 会 受到 CCT 中 其 他 部 分 
(比如 ,心理 测量 模型 、 题 库 结 构 和 选 题 策略 ) 以 及 
被 试 能 力 分 布 等 因素 的 影响 ， 三 类 终止 规则 在 不 
同 的 测验 情境 下 各 占 敖 头 。 因 此 ， 实践 者 在 选择 
终止 规则 时 需要 综合 考虑 CCT 的 各 个 部 分 以 明确 


表 5 CCT 终止 规则 的 总 结 


核心 原理 类 别 数 维度 数 终止 规则 构造 思路 
似 然 比 规则 
"m SPRT 在 分 界 点 处 构造 一 组 简单 假设 及 对 应 的 序 贯 似 然 比 统计 量 
|». SCSPRT 在 SPRT 的 基础 上 结合 随机 缩减 技术 
二 分 类 C-SPRT 通过 似 然 函数 约束 转化 为 SPRT 
序 贯 似 然 比 多 维  P-SPRT 通过 欧 氏 空间 投影 转化 为 SPRT 
M-SCSPRT 在 C-SPRT 的 基础 上 结合 随机 缩减 技术 
元 分 类 单 维 Sobel Wald i 在 每 个 分 类 点 处 进行 次 SPRT 
Armitage 方法 为 所 有 可 能 的 类 别 组 合 进行 SPRT 
"m GLR 在 分 界 点 处 构造 一 组 复杂 假设 及 对 应 的 广义 似 然 比 统计 量 
二 分 类 |. SCGLR 在 GLR 的 基础 上 结合 随机 缩减 技术 
广义 似 然 比 多 维 M-GLR 将 GLR 中 的 能 力 区 间 转 化 为 多 维 能 力 空间 
多 分 类 单 维 。 mGLR 对 被 试 属于 每 个 类 别 构造 一 组 复杂 假设 及 对 应 的 广义 似 然 
比 统计 量 
贝 叶 斯 规则 
in Erit 二 分 类 Lewis-Sheehan 方法 确定 每 种 决策 所 对 应 的 损失 
多 分 类 Vos 方法 确定 每 种 决策 所 对 应 的 损失 
一 分 类 单 维 “Linden-Mellenbergh 确定 每 种 决策 所 对 应 的 损失 ,并 考虑 能 力 估 计 值 与 分 界 点 
T Zz 方法 的 距离 
REMA 一 - he SWRA MMR, SRD MS 
多 分 类 Vos 方法 的 距离 
置信 区 间 规 则 
置信 区 间 二 分 类 单 维 ACI 比较 能 力 估计 值 的 置信 区 间 与 分 界 点 的 相对 位 置 
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三 类 终止 规则 的 适用 情境 。 另 外 ,还 需要 注意 相 
应 情境 下 可 能 面临 的 现实 问题 。 

对 于 似 然 比 规则 ， 想 要 准确 且 快 速 做 出 决策 
的 关键 在 于 最 大 程度 地 区 分 不 同类 别 被 试 的 似 然 
函数 值 ， 而 这 通常 和 选 题 策略 密切 相关 。 举 例 而 
言 , 在 UCCT 中 ,两 种 常见 的 选 题 策略 是 基于 能 
力 估计 值 的 最 大 信息 量 选 题 方法 (estimate-based 


与 分 界 分 数 相 对 位 置 的 影响 ， 因 此 更 适用 于 要 求 
高 通过 率 或 低 通过 率 的 测验 。 


6 ”未 来 研究 方向 及 应 用 


6.1 CCT 终止 规则 的 未 来 研究 方向 
本 文 对 多 种 测验 情境 下 的 CCT 终 止 规则 进行 
系统 梳理 与 述评 。 目 前 ,对 CCT 终止 规则 的 研究 


maximum Fisher information) 和 基于 分 界 分 数 的 最 
大 信息 量 选 题 方法 (cutscore-based maximum 
Fisher information)。 因 此 ， 当 选 题 策略 为 后 者 时 ， 
所 选 的 题目 能 够 为 假设 检验 提供 更 多 的 信息 ， 因 
此 似 然 比 规则 在 基于 分 界 分 数 的 最 大 信息 量 选 题 
方法 下 的 效率 最 高 。 但 是 由 于 基于 分 界 分 数 会 因 
为 固定 点 选 题 而 导致 题目 高 曝光 的 问题 ,所 以 似 


已 经 比较 丰富 , 但 仍 有 一 些 地 方 有 待 完 善 。 未 来 
研究 方向 主要 表现 在 以 下 四 方面 : 

(1) 完 善 基于 贝 叶 斯 的 终止 规则 。 构 建 CCT 终 
止 规则 的 思路 主要 有 三 个 角度 ， 即 似 然 比方 法 、 
贝 叶 斯 方法 和 置信 区 间 方 法 。 基 于 似 然 比 方法 的 
终止 规则 已 经 得 到 充分 的 发 展 , 但 如 前 所 述 ， 以 
贝 叶 斯 方法 为 基础 的 终止 规则 仍然 较 少 。 未 来 ， 


然 比 规则 更 适用 于 低 风 险 的 测验 , 而 且 要 求 题库 
中 大 部 分 题目 在 分 界 分 数 处 具有 高 信息 量 。 此 外 ， 
由 于 GLR 考虑 无 差别 区 间 两 侧 的 所 有 对 数 似 然 
函数 值 (不 仅 着 眼 于 上 、 下 界 两 个 点 )， 所 以 相 比 于 
SPRT, GLR 在 基于 当前 能 力 估计 选 题 时 也 能 保持 
一 定 的 效率 。 

对 于 贝 叶 斯 规则 ， 高 效 分 类 的 关键 在 于 最 大 
程度 地 区 分 不 同 决策 损失 的 差异 。 由 于 不 同 决策 
损失 函数 的 计算 同样 基于 9 和 60,， 所 以 在 基于 分 
界 分 数 的 选 题 方法 下 会 有 更 好 的 表现 。 同 样 ， 考 
虑 到 题目 曝光 率 的 问题 ， 贝 叶 斯 方法 更 适用 于 低 
风险 的 测验 。 另 外 , 由 于 贝 叶 斯 方法 能 够 针对 不 
同 的 决策 损失 进行 控制 ,所 以 适用 于 需要 降低 特 
定 类 型 决策 损失 的 测验 。 

对 于 置信 区 间 规 则 ， 保 障 决 策 效率 的 关键 在 
于 不 断 地 减 小 能 力 估 计 标 准 误 。 因此 , ACI 方法 在 
基于 能 力 估计 值 的 最 大 信息 量 选 题 方法 下 的 效率 
最 高 ， 该 选 题 策略 可 以 减 小 置信 区 间 的 大 小 。 此 
外 ,根据 不 同 被 试 的 能 力 , ACT 规则 能 够 为 不 同 被 
试 呈现 不 同 的 题目 ,在 一 定 程度 上 能 降低 高 信息 
量 题目 的 曝光 率 ， 所 以 它 可 以 用 于 高 风险 的 测验 ， 


研究 者 可 以 考虑 基于 贝 叶 斯 方法 对 前 人 研究 进行 
完善 。 例 如 ,在 现实 测验 情景 中 ， 除 考虑 决策 的 准 
确 率 和 测验 长 度 之 外 ,还 需要 满足 其 他 非 统计 约 
RA: 内 容 均衡 ， 即 让 试卷 充分 涵盖 所 要 考察 的 
知识 模块 )。 由 于 贝 叶 斯 损失 函数 具有 灵活 性 ， 研 
究 者 可 以 考虑 将 各 种 非 统 计 约束 纳入 终止 规则 的 
考虑 范围 。 此 外 , 正如 5.1 部 分 所 言 ， 目 前 贝 叶 斯 
方法 没有 利用 已 有 的 信息 对 被 试 即将 作答 的 下 一 
道 题 进行 预测 ， 未 来 研究 可 以 借鉴 似 然 比方 法 中 
随机 缩减 的 思想 来 构造 一 组 “合适 ”的 题目 蔡 代 被 
试 未 来 实际 作答 的 题目 。 最 后 ， 研 究 者 还 可 以 对 
损失 函数 中 损失 值 的 选取 如 何 影响 测验 结果 进行 
讨论 。 

(2) 开 发 多 维 多 分 类 的 CCT 终止 规则 。 多 维 或 
多 分 类 的 CCT 终止 规则 是 近期 的 一 个 研究 热点 ， 
但 尚未 有 研究 者 探究 同时 满足 多 维 、 多 分 类 要 求 
的 CCT 终止 规则 。 在 现实 应 用 中 , 许多 测验 不 仅 
要 同时 考察 被 试 在 多 个 维度 上 的 潜在 特质 , 而 且 
也 需要 将 被 试 分 到 多 于 两 个 的 类 别 中 。 例 如 , 教 
育 工 作者 希望 将 学 生 的 数学 成 就 水 平 划 分 为 基 
础 、 熟 练 和 高 级 三 个 类 别 (比如 , 美国 国家 进步 教 


相应 地 需要 题库 中 的 题目 在 不 同 能 力 位 置 具 有 高 
ES. (HÆ Tian (2018) 在 控制 分 类 准确 性 一 致 
的 前 提 下 , 采用 基于 能 力 估 计 值 的 选 题 方法 ， 比 
较 单 维 二 分 类 的 似 然 比 规则 和 置信 区 间 规 则 。 结 
果 发 现 : 当 被 试 能 力 分 布 远离 分 界 分 数 时 , ACI 规 
则 的 效率 要 高 于 似 然 比 规则 ; 但 是 在 被 试 能 力 分 
布 靠近 分 界 分 数 时 , ACI 规 则 效率 低 于 GLR 方法 。 
这 意味 着 ACI 规则 的 表现 还 会 受到 被 试 能 力 分 布 


育 评估 NAEP); 而 数学 测验 也 往往 同时 考察 学 生 
的 算术 、 阅 读 和 问题 解决 能 力 等 ， 呈 现 出 多 维 的 
能 力 结 构 (Reckase, 2009)。 这 就 对 构建 多 维 、 多 分 
类 的 CCT 终止 规则 提出 迫切 需求 。 

(3) 开 发 融合 作答 时 间 (Response Time, RT; f 
ibis 等 , 2020) 的 CCT 终止 规则 。 近 几 年 来 ,心理 
测量 学 的 研究 重点 大 都 放 在 如 何 同时 衡量 多 个 维 
度 的 潜在 特质 ， 以 向 被 试 提 供 更 详细 、 更 完善 的 
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反馈 。 但 是 这 些 研究 大 多 只 考虑 被 试 的 作答 信息 
而 很 少 使 用 行为 信息 。 在 CCT 测验 中 ， 有 一 类 很 
容易 获得 的 行为 信息 ， 即 被 试 作答 所 用 的 时 间 。 
Sie 等 人 (2015) 尝 斌 构建 融入 RT 的 CCT, 他们 的 
研究 结果 表明 : 融入 RT 后 , 测验 在 分 类 精度 轻微 
提高 的 同时 还 能 够 减少 平均 测验 时 间 。 但 是 ，Sie 
等 人 (2015) 的 研究 主要 集中 在 限制 被 试 作答 时 间 ， 
而 未 考虑 更 普遍 的 限制 测验 长 度 的 情况 。 未 来 ， 
研究 者 可 以 在 上 述 研究 的 基础 上 进一步 展开 探索 ， 
开发 新 的 结合 RT 的 CCT 终止 规则 , 在 保持 判断 
准确 率 的 基础 上 缩短 测验 长 度 ， 而 不 仅仅 是 控制 
测验 时 间 。 另 外 ,可 以 考虑 如 何 利 用 作答 时 间 提 
高 分 类 决策 的 精度 ， 进 而 间接 提高 测验 效率 (Man 
et al., 2019; 人 詹 沛 达 , 2019)。 

(4) 开 发 结合 机 器 学 习 算法 的 CCT 终止 规则 。 
目前 的 三 类 终止 规则 均 为 基于 心理 测量 模型 的 方 
法 , 模型 的 正确 设 定 和 前 提 假 设 的 满足 对 结果 有 
重要 的 影响 ,然而 实践 中 的 数据 往往 掺 杂 着 各 式 
各 样 的 噪音 。 机 器 学 习 是 近年 来 各 个 领域 研究 的 
热点 ， 其 中 许多 算法 都 是 用 来 解决 分 类 问题 ， 这 
45 CCT 的 目的 相 一 致 。Gonzalez (2021) 认 为 ， 相 
比 于 比较 “通过 各 种 模型 估计 得 到 的 被 试 能 力 ” 与 


量 庞大 的 考生 群体 ， 具 有 充足 的 测验 经 费 和 考生 
样本 ， 相 应 地 能 够 建立 起 一 定 规模 的 题库 ， 并 在 
一 定 程度 上 能 保障 题目 参数 的 稳定 估计 ， 使 得 合 
格 性 测验 具有 运用 三 类 终止 规则 的 潜力 。 但 是 ， 
似 然 比 规则 与 贝 叶 斯 规则 的 原理 较为 复杂 ， 且 正 
如 5.2 部 分 所 言 ， 这 些 方 法 在 实践 中 伴随 着 题目 
曝光 率 过 高 的 问题 。 因 此 , 在 现 有 的 合格 性 测验 
尤其 是 高 风险 的 合格 性 测验 中 , 鲜 有 这 两 类 方法 
的 应 用 。 与 上 述 两 种 规则 的 困境 形成 对 比 的 是 ， 
置信 区 间 规 则 原理 简明 易 懂 、 分 类 结果 清晰 ， 更 
能 为 大 众 和 教育 工作 者 所 理解 , 更 具有 推广 性 ， 
在 现实 中 就 显得 更 加 可 行 。 比 如 , 美国 联合 委员 
会 注册 护士 执照 考试 (the National Council Licensure 
Examination for Registered/Practical Nurse, NCLEX- 
RN) 就 使 用 ACI 规则 来 决定 测验 何 时 终止 。 

在 临床 医学 问卷 中 ,通过 评价 患者 在 不 同 指 
标 上 的 轻重 程度 或 近期 的 心理 生理 状态 ,将 患 
划分 到 不 同 症 状 水 平 , 来 为 其 后 续 的 治疗 和 诊断 
提供 依据 。 比 如 ,汉密尔顿 抑郁 量 表 (Hamilton 
Rating Scale for Depression, HRSD) 和 创伤 后 应 激 
障碍 量 表 (Posttraumatic Stress Disorder Checklist, 
PCL)。 对 于 此 类 测验 , 被 试 群体 往往 很 小 ， 且 问 


“黄金 标准 ”来 获得 被 试 的 类 别 ， 机 器 学 习 算 法 通 
过 被 试 的 作答 就 能 直接 预测 被 试 属 于 某 个 类 别 的 
概率 ， 避 免 模型 不 拟 合 等 引起 的 误差 .Zheng 等 人 
(2020) 基 于 机 器 学 习 算 法 中 的 决策 树 方 法 ， 开 发 
出 一 个 短 的 基于 树 的 自 适应 分 类 测验 。 未 来 ， 研 
究 者 可 以 考虑 使 用 其 他 的 分 类 算法 (比如 ， 逻辑 斯 
蒂 克 回归 、 支 持 向 量 机 以 及 随机 森林 等 方法 ) 完 成 
自 适应 分 类 测验 。 
6.2 CCT 终止 规则 的 应 用 

CCT 测验 主要 包含 两 种 类 型 : 合格 性 测验 与 
临床 医学 问卷 。 在 为 不 同类 型 的 测验 制定 终止 规 
则 时 ， 应 充分 考虑 测验 的 考生 群体 、 试 题 特点 以 
及 决策 影响 。 

在 合格 性 测试 中 , 通过 设置 不 同 难 度 的 试题 ， 
将 考生 划分 到 不 同 能 力 水 平 , 根据 考生 的 等 级 水 
平 , 来 决定 其 从 业 资 格 、 学 业 进 度 或 升学 。 许 多 
职业 资格 考试 都 属于 这 类 测验 ， 比 如 教师 资格 考 
试 、 司 法 考试 和 执业 医师 资格 考试 等 ; 此 外 ,还 有 
一 些 学 业 水 平 考试 也 属于 合格 性 测验 ， 比 如 大 学 
英语 四 、 六 级 考试 、 计 算 机 二 级 考试 以 及 初中 学 
业 水 平 测试 等 。 对 于 此 类 测验 ,往往 每 年 均 有 数 


卷 的 题 项 并 不 具有 一 般 意 义 上 的 难度 。 更 重要 的 
Æ, 假 阴 性 (false negative) 的 分 类 结果 所 带 来 的 代 
价 不 可 忽视 。 因 此 ,考虑 到 相 比 于 另外 两 类 终止 
规则 ， 贝 叶 斯 终止 规则 能 够 对 各 种 分 类 损失 有 更 
精细 的 控制 , 在 临床 医学 问卷 中 更 为 适用 。 目 前 ， 
终止 规则 在 临床 医学 问卷 中 的 应 用 目的 主要 为 : 
在 保证 决策 准确 基础 上 缩短 已 有 问卷 的 长 度 , 使 
得 诊断 过 程 更 高 效 ， 比 如 利用 机 器 学 习 模 型 或 随 
机 缩减 技术 进一步 缩减 问卷 长 度 (Gonzalez，2021; 
Smits et al., 2016)。 还 需要 注意 的 是 , 临床 问卷 以 
往 直 接 使 用 观测 分 数 与 诊断 临界 值 相 比较 ,而 已 
有 的 终止 规则 主要 基于 潜在 特质 进行 计算 。 但 随 
着 RT 研究 的 推进 ， 越 来 越 多 的 研究 者 使 用 IRT 
模型 对 临床 问卷 建 模 ， 比 如 Li 等 人 (2019) 将 等 级 
反应 模型 (Graded Response Model, GRM) 应 用 于 病 
人 健康 问卷 (the Patient Health Questionnaire, PHQ)。 
因此 , 相 比 于 Smits 等 人 (2016) 使 用 基于 观测 分 数 的 
CCT 并 选择 随机 缩减 的 倒计时 法 (countdown 
method) 作 为 终止 规则 ， 贝 叶 斯 规则 或 许 既 能 够 缩 
短 测 验 长 度 ， 又 能 在 每 一 步 中 严格 控制 诊断 的 
损失 。 
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Types, characteristics and application of termination rules in 
computerized classification testing 


REN He, HUANG Yingshi, CHEN Ping 
(Collaborative Innovation Center of Assessment for Basic Education Quality, 


Beijing Normal University, Beijing 100875, China) 


Abstract: Computerized classification testing (CCT) has been widely used in eligibility testing and clinical 
psychology for its efficiency in classifying participants. As an essential part of CCT, the termination rule 
determines when the test is to be stopped and what category the participants are ultimately classified into, 
directly affecting the test efficiency and classification accuracy. According to the theoretical basis of the 
termination rules, existing rules can be roughly divided into the likelihood ratio, Bayesian decision theory, 
and confidence interval rules. And their core ideas are constructing hypothesis tests, designing loss 
functions, and comparing the relative positions of confidence intervals, respectively. Based on these ideas, 
in different test situations, CCT termination rules have various specific forms. Future research can further 
extend Bayesian rules, construct rules for multidimensional and multicategory CCT, integrate process data 
into termination rules, and build rules under the framework of machine learning. In addition, from the 
perspective of practical requirement, all three types of rules have the potential to be applied in eligibility 
tests, while the Bayesian rules are optimal to clinical questionnaires. 

Key words: computerized classification testing, termination rule, likelihood radio, stochastic curtailment, 


Bayesian decision theory 


